Une sélection multiple des structures d'optimisation dirigée par la méthode de classification K-means
نویسندگان
چکیده
Résumé. Le volume d’information contenu dans un entrepôt de données s’accroît sans cesse, augmentant de ce fait le temps d’exécution des requêtes décisionnelles. Pour y remédier, l’administrateur doit, durant la phase de conception physique de l’entrepôt, effectuer une sélection de structures d’optimisation (index, vues matérialisées ou fragmentation), puis assurer leur gestion et maintenance. Pour optimiser un nombre maximum de requêtes, il est indispensable d’opter pour une sélection multiple de structures ayant une forte similarité. Dans la littérature, deux principales similarités entre les structures d’optimisation ont été identifiées : une entre les vues et les index et l’autre entre la fragmentation horizontale dérivée et les index de jointure binaire. Dans ce travail, nous proposons une approche de sélection multiple des index de jointure binaire et de fragmentation. Vue la complexité de la sélection multiple, nous proposons une nouvelle approche permettant d’abord de partager l’ensemble des attributs extraits des requêtes entre les deux structures, ensuite sélectionner chaque structure avec un algorithme. Pour réaliser ce partage, nous proposons d’utiliser la méthode K-means. Une étude expérimentale et des tests comparatifs sur un entrepôt de données réel sous le SGBD Oracle 11g sont proposés illustrant l’intérêt de notre approche.
منابع مشابه
Extension de l'étiquetage géographique des pixels d'une image par fouille de données
Résumé. Les techniques de classification modernes permettent d’étiqueter les zones non couvertes des bases de données cartographiques, mais souffrent d’un manque de robustesse important. Dans cet article, nous proposons une méthode robuste d’extension d’étiquetage sur l’emprise d’une image satellite, par analyse hiérarchique des données existantes. Notre approche est fondée sur une sélection d’...
متن کاملUne nouvelle approche pour la sélection de variables basée sur une métrique d'estimation de la qualité
Résumé. La maximisation d’étiquetage (F-max) est une métrique non biaisée d’estimation de la qualité d’une classification non supervisée (clustering) qui favorise les clusters ayant une valeur maximale de F-mesure d’étiquetage. Dans cet article, nous montrons qu’une adaptation de cette métrique dans le cadre de la classification supervisée permet de réaliser une sélection de variables et de cal...
متن کاملUne méthode de classification supervisée sans paramètre pour l'apprentissage sur les grandes bases de données
Résumé. Dans ce papier, nous présentons une méthode de classification supervisée sans paramètre permettant d’attaquer les grandes volumétries. La méthode est basée sur des estimateurs de densités univariés optimaux au sens de Bayes, sur un classifieur Bayesien naïf amélioré par une sélection de variables et un moyennage de modèles exploitant un lissage logarithmique de la distribution a posteri...
متن کاملClassification par voisinages successifs sur des descriptions morphologiques complexes
Résumé. Afin de classifier des descriptions morphologiques issues de bases de connaissances en biologie, nous proposons une méthode de fouille de données incrémentale, interactive et semi-dirigée. Cette méthode est fondée sur la construction itérative du voisinage de la description partielle de l’objet à classer. Nous proposons différents indices de similarité adaptés à la nature complexe des d...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2010